Problem
Wir haben die Invarianz-Eigenschaft von IRT bereits kennen gelernt: Itemparameter sind gleich über verschiedene Gruppen. Die Wahrscheinlichkeit für eine korrekte Antwort auf ein Item hängt nur von \(\theta\) ab. Nicht von anderen Personen in der Stichprobe.
Wie schaffen wir das aber, wenn wir anhand von verschiedenen Gruppen kalibrieren? Wir müssen die Werte, die wir aus diesen Kalibrierungen bekommen, irgendwie in einen Zusammenhang setzen.
Wiederholung: Kalibrierung
- Kalibrierung: schätzen von Itemparametern und Personenfähigkeiten
- Erst einmal nur für diese bestimmte Kombintation aus Items und Personen
WARUM?
Wiederholung: Kalibrierung
- Skala der Latenten Variable wird arbiträr festgelegt auf einen Mittelwert von 0 und eine SD von 1
- Modell? sonst nicht idenfiziert.
- Itemparameter dadurch nicht auf der selben Skala
- Sie können also nicht direkt miteinander verglichen werden.
Beispiel
Sie hängen ja von den latenten VAriablen in der Stichprobe ab. Wenn wir eine sehr gute Stichprobe haben, und eine sehr schwache, dann werden trotzdem bei beiden der Mittelwert der Latenten Variable 0 und die SD 1 sein. Mittelschwere Items werden aber in der schwachen Gruppe eher positive Schwierigkeiten haben, in der starken Gruppe eher negative. (Beispiel nochmal genauer ausführen, evtl. mit Grafik, Ich hatte dazu etwas im ersten Buch, dass ich gelesen habe).
Beispiel
Group 1: \(\theta \sim N(0,1)\) Group 2: \(\theta \sim N(1, 1.4)\)
Für die Kalibrierung legen wir jetzt aber fest, dass gilt: Group 1: \(\theta \sim N(0,1)\) Group 2: \(\theta \sim N(0,1)\)
Beispiel
Simulieren von Rasch Daten
Jetzt ist ein guter Zeitpunkt, und uns ein sehr mächtiges Werkzeug anzuschauen: Datensimulation.
- Einerseits hilft es hoffentlich, die Konzepte hinter IRT und Linking noch besser zu verstehen.
- Andererseits ist es auch im tatsächlichen Anwendungsfall super hilfreich, z.B. um Poweranalysen zu machen (wie viele Personen muss ich testen, um einen bestimmten Effekt zu entdecken).
Let’s take a step back!
Geht zu den Übungen und probiert euch aus!
Plots zeigen
Eventuell nich alles simulieren lassen, sondern nur das 2PL Modell.
Schlusfolgerung
- Wir brauchen also einen Referenzrahmen um unsere Testergebnisse interpretieren zu können.
- Das bedeutet auch, dass wir die Werte aus verschiedenen Kalibrierungen nicht direkt miteinander vergleichen können.
- Lösung: Linking
Linking/Equating
- Szenario: Wir haben verschiedene Testformen, und wollen die Scores auf eine gemeinsame Skala bringen.
- Dafür haben wir zwei Möglichkeiten:
- Gemeinsame Items
- Gemeinsame Personen
Abbildung z.B. mit Verteilung von theta scores, die nochmal zeigt was das Problem ist. Dann kann man bestimmte Items markieren, und die Verteilungen entsprechend dieser markierten Items verschieben.
Embretson 2000, S. 253
- Item Parameter werden in beiden Tests geschätzt, und dann anhand der Ankeritems durch eine geeignete Transformation auf eine gemeinsame Skala gebracht.
Beispiel
- Schulvergleichsstudien über die Jahre:
- Itempools von Unternehmen, die Einstellungstests anbieten.
Ankeritems
- Gemeinsame Items, die in beiden Testformen vorhanden sind.
- Sollten keinen DIF haben.Genauer recherchieren: How to choose anchor items.
Ankeritems
- Kallibrierungen der Parameterschätzer aus zwei verschiedenen Testformen werden auf eine gemeinsame Skala gebracht.
- Wir müssen also die theta (\(\theta\)) scores des einen Tests so transformieren, dass sie auf einer gemeinsamen Skala mit den Scores des anderen Tests liegen:
\[
\theta_Y = A \theta_X + B
\]
Ankerpersonen
Personen bearbeiten beide Tests. Personenfähigkeit wird basierend auf einem Referenztest geschätzt, und dann fixiert und konstant gehalten, wenn andere Testformen bearbeitet werden. Die Fähigkeitswerte werden dann genutzt, um Itemparameter auf beiden Testformen zu schätzen.
Linking
\[
\theta* = x\theta+y
\]
…
Linking
Ziel: “Linking constants” \(x\) und \(y\) findend, welche die Item parameter aus den beiden Gruppen auf der selben Skala plazieren. Deutlich machen, für welche Art Modell nutzbar! Nochmal mit dem neueren Buch rübergehen, das geht noch mehr in die Tiefe.
- Zwei häufige Methoden:
- mean-sigma:
- Annahme: Gemeinsame Ankeritems, oder Zwei Gruppen haben den genau gleichen Test bearbeitet. \[
B_B^* = x\beta_b=y
\]
\[
x = \frac{\sigma_A}{\sigma_B}
\]
\[
y = \overline{\beta}_A - x(\overline{\beta}_B)
\]
Und dann einsetzen in \[
\theta* = x\theta+y
\]
etc.
mal ausprobieren!
mean-sigma
Probleme: linking constants können stark von Outliern beeinflusst werden, und von den differential standards errors of the item difficutly estimates - Robust procedures exist.
Nur die item difficulty parameters werden zur berechnung der Linking constants genutzt.
Alternative: Characteristic curve methods
Characteristic curve methods
Versuch, die Linking constants so zu berechnen, dass die test charctersitic curves so ähnlich wie möglich sind. Nutzen daher alle item parameter um die Linking constants zu finden. computationally more expensive. Empirical research zeigt keine großen Unterschide zwischen beiden Methoden? Nochmal selber recherchiereen.
Gibt es neuere methoden? Z.B. Multi-group IRT, CFA framework …?
Beispiel
Im Embretson machen sie eine kleine Simulation. Könnten wir auch machen, entweder als aufgabe oder demonstrieren. - Man könnte die Linking constants setzen, gukcen was das mit den schwierikeiten macht, und die Simulierten Werte wieder rekapitulieren.